☰
25.5.4 리워드 쉐이핑(Reward Shaping)의 위험성과 대안
Home
/
인공지능 (Artificial Intelligence, AI)
/
제목: Embodied AI & Modern Control
/
Chapter 25. 안전한 제어와 이론적 보증 (Safe Control & Theoretical Guarantees)
/
25.5 제약 조건이 있는 강화학습 (Constrained MDPs & Safe RL)
/
25.5.4 리워드 쉐이핑(Reward Shaping)의 위험성과 대안
25.5.4 리워드 쉐이핑(Reward Shaping)의 위험성과 대안